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© PROCEDE DE DEBRUITAGE D'UN SIGNAL DE PAROLE NUMERIQUE 

© On effectue une soustraction spectrale comportant: 
une premiere etape de soustraction dans 

laquelle on tient compte d'estimations rnajorees 



'■ B n,i > 

des composantes spectrale du bruit, de maniere a ob- 
tenir des composantes spectrales (S 2 n f) d'un premier signal 
debruite; le calcul d'une courbe de masquage (M n q ) en ap- 
pltquant un module de perception auditive & partir aes com- 
posantes spectrales du premier signal debruite; et une 
seconde etape de soustraction dans laquelle on soustrait 
respectivement, de chaque composante spectrale du signal 
de parole sur la trame, une quantity dependant de parame- 
tres incluant un ecart entre ('estimation majoree de la com- 
posante spectrale correspondante du bruit et la courbe de 
masquage calculee. On applique au resultat de la soustrac- 
tion spectrale une transformation vers le domaine temporel 
pour construire un signal de parole debruite. 
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PROCEDE DE DEB RU I T AGE D'UN SIGNAL DE PAROLE HUMERI QUE 

La presence invention concerne les techniques 
r.umeriques de debruitage de signaux de parole. Slle 
concerne plus particulierement le debruitage par 
soustraction spectrale non lineaire. 

Du fait de la generalisation des nouvelles formes 
de communication, en particulier des telephones mobiles, 
les communications se font de plus en plus dans des 
ambiances fortement bruitees . Le bruit, additionne a la 
parole, a alors tendance a perturber les communications en 
empechant une compression optimale du signal de parole et 
en creant un bruit de fond non naturel. D' autre pari, le 
bruit rend difficile et fatigante la comprehension du 

message parle. 

De nombreux algorithmes ont ete etudies pour 
essayer de diminuer les effets du bruit dans une 
communication. S. F. Boll («Suppression of acoustic noise 
in speech using spectral subtraction », IEEE Trans, on 
Acoustics, Speech and Signal Processing », Vol. ASSP-27, 
n° 2, avril 1979} a propose un algorithme base sur la 
soustraction spectrale. Cette technique consiste a estimer 
le spectre du bruit pendant les phases de silence et a le 
soustraire du signal regu. Elle permet une reduction du 
niveau de bruit regu. Son principal defaut est de creer un 
bruit musical particulierement genant, car non naturel. 

Ces travaux, repris et ameliores par D. B. Paul 
(« The spectral enveloppe estimation vocoder », IEEE 
Trans, on Acoustics, Speech and Signal Processing », Vol. 
ASSP-29, n° 4, aout 1981) et par P. Lockwood et J. 3oudy 
(« Experiments with a nonlinear spectral subtractor .NSS) , 
Hidden Markov Models and the projection, for robust speech 
recognition in cars », Speech Communication, Vol. 11, juin 
1992, pages 215-228, et EP-A-0 534 837) ont permis de 
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diminuer sens i clement Is niveau de bruit tout en lui 
conservar.t un caractere naturel. je plus, cette 
contribution a eu ie me:::e d'lncorporer pour la premiere 
fois le principe cie ma'squage dans le caicul du filtre de 
debruitage. A part ir de cette idee, une premiere tentative 
a ete faite par S. Nandkumar et J. H. L. Hansen (« Speech 
enhancement on a new set of auditory constrained 
parameters », ?roc. IC.-.SSP 94, pages I. 1-1.4) pour 
utiliser dans la soustraction spectrale des courbes de 
masquage calculees expl icitement . Malgre les resultats 
decevants de cette technique, cette contribution a eu le 
merite de mettre 1' accent sur 1' importance de ne pas 
der.aturer ie signal de parole pendant le debruitage. 

D'autres methodes basees sur la decomposition du 
signal de parole en valeurs singulieres, et done sur une 
projection du signal de parole dans un espace plus reduit, 
ont ete etudiees par Bart De Moore (« The singular value 
decomposition and long and short spaces of noisy 
matrices », IEEE Trans, on Signal Processing, Vol. 41, n° 
9, septembre 1993, pages 2826-2838) et par S. H. Jensen et 
ai (« Reduction cf broad-band noise in speech by truncated 
QSVD », IEEE Trans, on Speech and Audio Processing, Vol. 
3, n° 6, novembre 1995) . Le principe de cette technique 
est de considerer le signal de parole et le signal de 
bruit comme totalement decor reles, et de considerer que le 
signal de parole a une predict ibilite suffisante pour etre 
predit a partir d' un jeu restreint de parametres. Cette 
technique permet d'obtenir un debruitage acceptable pour 
des signaux fortement voises, .mais denature totalement le 
signal de parole. Face a un bruit relativement coherent, 
tel que celui provoque par le contact de pneus de voitures 
ou le cliquetis d' un moteur, le bruit peut s'averer plus 
faciiement predictible que le signal de parole non vois£. 
On a alors tendance a projeter le signal de parole dans 
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une pa rue de i'espace vectorial du bruit. La methode ne 
tient pas compte du sigr.al de parole, en particuiier des 
zones de parole non voisee ou la predict ibil ite est 
reduite. De plus, predire le signal de parole a partir 
z d'un jeu de parametres reduit ne cermet pas de prendre en 
compte toute la richesse ir.t rir.seque de la parole- On 
comprend ici les limites de techniques basees uniquement 
sur des considerations mathemat iques en oubliant le 
caractere particulier de la parole. 

1C D' autres techniques enfin sont basees sur des 

criteres de coherence. La fonction de coherence est 
part iculierement bien developpee par J. A. Cadzow et 0. M. 
Solomon (« Linear modeling and the coherence function », 
IEEE Trans, on Acoustics/ Speech and Signal Processing, 

15 Vol. ASSP-35, n° 1, janvier 1987, pages 19-28), et son 
application au debruitage a ete etudiee par R. Le Bouquin 
(« Enhancement of noisy speech signals : application to 
mobile radio communications », Speech Communication, Vol. 
18, pages 3-19) . Cette methode se base sur le fait que le 

20 signal de parole a une coherence r.ettement plus importante 
que le bruit a condition d' utiliser plusieurs canaux 
independants. Les resultats obtenus semblent etre assez 
encourageants . Mais malheureusement , cette technique 
impose d' avoir plusieurs sources de prise de son, ce qui 

25 n'est pas toujours realise. 

Un but principal de la presente invention est de 
proposer une nouvelle technique de debruitage qui prenne 
en compte les caracterist iques de perception de la parole 
par l'oreilie humaine, permettar.t ainsi un debruitage 

3C efficace sans deteriorer la perception de la parole. 

L' invention propose ainsi un procede de 
debruitage d'un signal de parole numerique traite par 
trames successives, dans lequel : 

- on calcule des composantes spectrales du signal 
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ce parole sur chaque trame ; 

- on calcule pour cheque :rame des estimations 
majcrees co.Tiposantes spec: rales ciu bruit compris dans 
le signal de parole ; 

on effectue una soustraction speciraie 
comportar.t au moins une premiere etape de soustraction 
cans laquelle on soustrait respecti vement , de chaque 
composante spectrale du signal de parole sur la trame, une 
premiere quantite . dependant de parametres incluant 
1' estimation majoree de la composante spectrale 
correspondante du bruit pour ladite trame, de maniere a 
obtenir des composantes spectrales d'un premier signal 

debruite ; et 

on applique au resuUa: de la soustraction 
spectrale une transformation vers le domaine temporel pour 
construire un signal de parole debruite. 

Selon 1' invention, la soustraction spectrale 
comporte en outre les etapes suivantes : 

- le calcul d'une courbe de masquage en appliquant 
un modele de perception auditive a partir des composantes 
spectrales du premier signal debruite ; 

la comparaison des estimations majorees des 
composantes spectrales du bruit pour la trame a la courbe 
de masquage calculee ; et 

- une seconde etape de soustraction dans laquelle 
on soustrait respectivement, de chaque composante 
spectrale du signal de parole sur la trame, une seconde 
quantite dependant de parametres incluant un ecart entre 
i' estimation majoree de la composante spectrale 
correspondante du bruit et la courbe de masquage calculee. 

La seconde quantite soustraite peut notamment etre 
limitee a la fraction de 1' estimation majoree de la 
composante spectrale correspondante du bruit qui depasse 
la courbe de masquage. Cette fagon de proceder repose sur 
1' observation qu' il suffit de debruiter les frequences de 
bruit audibles. A contrario, il ne sert a rien d'eliminer 
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du bruit qui est masque par de la parole. 

la suresti.-aticr. de 1'enveloppe spectraie du 
bruit est generalerr.er.t sour.aiiabie pour que 1 ' estimat ion 
majoree ainsi obtenue soit robuste aux brusques variations 
du bruit. Neanmoir.s, cette surest imat ion a habituellernent 
1' inconvenient de distordre le signal de parole 
lorsqu'elle devient trop i^iporianie. Ceci a pour effet 
d'affecter le caractere voise du signal de parole en 
supprimant une partie de sa predictibilite. Cet 
inconvenient est ires genant dans les conditions de la 
telephonie, car c'est pendant les zones de voisement que 
le signal de parole est alors le plus energetique. En 
limitant la quantite souszraite lorsque la totalize ou une 
partie d' une composar.te frequent ielle du bruit surestir.e 
s'avere etre masquee par la parole, 1' invention permet 
d'attenuer fortement cet inconvenient. 

D'autres particularity et avantages de la 
presente invention apparaitront dans la description ci- 
apres d'exemples de realisation non limitatifs, en 
reference aux dessins annexes, dans lesquels : 

- la figure 1 est un schema synoptique d'un 
systeme de debruitage mettant en oeuvre la presente 
invention ; 

- les figures 2 et 3 sont des organigrammes de 
procedures utilisees par un detecteur d' activite vocale du 
systeme de la figure 1 ; 

- la figure 4 est un diagramme representant les 
etats d'un automate de detection d' activite vocale ; 

la figure 5 est un graphique iliustrant les 
variations d'un degre d' activite vocale ; 

- la figure £ est un schema synoptique d'un. module 
de surestimat ion du bruit du systeme de la figure 1 ; 

- la figure 7 est un graphique iliustrant le 
calcul d' une courbe de masquage ; 
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la figure 8 est un graphique illustrant 
1' exploitation cies courbes ce masquage dans le systems de 
la figure 1 ; 

- la figure 9 est ur. schema synoptique d'un autre 
systeme de debruitage ir.e::a:.: en ceuvre la presence 
invention ; 

- la figure 10 est un graphique illustrant une 
methode d' analyse harmonique utilisable dans un procede 
selon 1' invention ; et 

- la figure 11 monzre part iellement une variante 
du schema synoptique de la figure 9. 

Le systeme de debruitage represents sur la figure 
1 traite un signal numericue ce parole s. Un module de 
fenetrage 10 met ce signal s sous forme de fenetres ou 
trames successives, constitutes chacune d'un nombre N 
d' echant illons de signal numerique. De fagon classique, 
ces trames peuvent presenter des recouvrement s mutuels. 
Dans la suite de la presence description, on considerera, 
sans que ceci soit limitatif, que les trames sont 
constitutes de N=256 echantillons a une frequence 
d' echantillonnage F e de 8 kHz, avec une ponderation de 

Hamming dans chaque fenetre, en des recouvrements de 50% 

entre fenetres consecut ives . 

La trame de signal est transformee dans le domaine 

frequentiel par un module 11 appliquant un algorithme 

classique de transformee de Fourier rapide (TFR) pour 

calculer le module du spectre du signal. Le module 11 

delivre alors un ensemble de N=2 56 composantes 

f reauentieiles du signal de oarole, notees , ou n 

n , a. 

cesigne le numero de la trarr.e ccurar.te, et f une frequence 
du soectre discret. Du fait, ces proprietes des signaux 
numeriques dans le domaine frequentiel, seuls les N/2=128 
premiers echantillons sont utilises- 
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Pour calculer les estimations cu bruit cor.tenu 
cans le signal s, on n' utilise pas la resolution 
frequent lelle disponible en sortie de la transformee ce 
Fourier rapide, mais une resolution plus faib.e, 
ceterminee par un n ombre I de bar.des de frequences 
couvrant la bande [0,F e /2] cu signal. Chaque bande i 
C<i<I) s'etend entre une frequence inferieure f(i-l) et 
une frequence superieure f(i), avec f(0)=0, et f(I)=F e /2. 

Ce decoupage en bandes de frequences peut etre uniforme 
(f (i) -f (i-1) =F /2I) . II peut egalement etre non uniforme 

(par exemple selon une echelle de barks) . Un module 12 

caicule les moyennes respectives des composantes 

soectrales f du signal de parole par bandes, par 

n , l 

exemple par une ponderation uniforme telle que : 

1 



n* 1 f(i) - f(i-l) , 



[f(i-D ,f{±)[ 

Ce moyennage diminue les fluctuations entre les 
bandes en moyennant les contributions du bruit dans ces 
bandes, ce qui diminuera la variance de 1' estimateur ce 
bruit. En outre, ce moyennage permet une forte diminution 
de la complexity du systeme. 

Les composantes spectrales moyennees S r\,i sont 

adressees a un module 15 de detection d'activite vocale et 
a un module 16 d' estimation du bruit. Ces deux modules 15, 
16 fonctionnent con jointement , en ce sens que des degres 

d'activite vocale y_ , mesures pour les differentes bandes 

n / i 

par le module 15 sont utilises par ie module 16 pour 
estimer 1'energie a long terme du bruit dans les 
differentes bandes, tandis que ces estimations a long 
terme B- s sont utilisees par le module 15 pour procecer a 
un debruitage a priori du signal de parole dans les 
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differences bandes pour ce:e:Tiir.er les degres c' activite 
vocaie 7_ . . 

Le f onciionr.eme.n - des —odules 15 et 15 peut 
cor respor.cre aux orga nigra mm e s represen:es sur les figures 
2 et 3. 

Aux etapes 17 a 20, le module 15 procede au 

deb rui:age a priori du signal de parole dans les 

differentes bandes . i pour la trame de signal n . Ce 

debruitage a priori est effectue selon un processus 

classique de soustraction spectrale nor. lineaire a partir 

d'estimations du brui: obtenues lors d' une ou plusieurs 

vranies precedentes . A l'etape 11, le module 15 calcule, 

avec la resolution des bandes i, la reponse en frequence 

Hp du filtre de debruitage a priori, selon la f ormule : 
n / l 



5 n,i ~ a n-xl,i- s n-xl,i 



(2) 



s n-x2,i 

ou xl et t2 sont des retards exprimes en nornbre de trames 

(xl>l, t2>0), et i est un coefficient de sures timation 

du bruit dont la determination sera expliquee plus loin. 
Le retard xl peut etre fixe (par exemple t1 = 1) ou 
variable. II est d'autant plus faible qu'on est confiant 
dans la detection d' activite vocaie. 

Aux etapes 18 a 20, les composantes spectrales 



E Pn, 



l 



sont calculees selon 



Ep nf± = max|«p n/i .S n/i , Pp^ £ n _ xl (3) 

ou pp. est un coefficient de plancher proche de 0, servant 

classiquerr.er.t a eviter que le spectre du signal debruite 
prenne des valeurs negatives ou trop faibles qui 
provoqueraient un bruit musical. 
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Les erapes 1*7 a 20 consistent: dene esser.t iellement 
a soustraire du spectre du signal une eszimauon, -ajoree 

par le coefficient a \n-il t i ' du s ? €Ctre du bruit estime a 

priori . 

A i'etape 21, le module 15 calcule 1'energie du 
signal debruite a priori dans les differentes bandes i 

pour la trame n : £ n/i = £pn,i • 11 calcule aussi une 
moyenne globale £ R Q de 1'energie du signal debruite a 
priori, par une somme des energies par bande E n ,i' 
ponderee par les largeurs de ces bandes. Dans les 
notations ci-dessous, l'indice i=0 sera utilise pour 
designer la bande globale du signal. 

Aux etapes 22 et 23, le module 15 calcule, pour 
cr.aque bande i (0<i^I), une grandeur AE n ^ i representant 
la variation a court terme de 1'energie du signal debruite 
dans la bande i, ainsi qu'une valeur a long terme E n# i de 
1'energie du signal debruite dans la bande i. La grandeur 
AE n ^ peut etre calculee par une formule simplifiee de 



derivation : &E n ,± 



E n-4,i + E n-3,i £ n-l,i E n,i 



10 



Quant a 



1'energie a long terme E n ,i , elle peut etre calculee a 
l'aide d'un facteur d'oubli Bl tel que 0<B1<1, a savoir 

Apres avoir calcule les energies E A du signal 
debruite, ses variations a court terme &~ nf i et ses 
valeurs a long terme E n/ i de la maniere indicuee sur la 
figure 2, le module 15 calcule, pour chaque bande i 
(0<i£I), une valeur p.^ representative de l'evolution de 
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1'er.ergie cu signal debrui:e. Ce calcul est effectue aux 
etapes 25 a 36 ce la figure 3, executees pour chaque bande 
i er.ire 1 = 0 ei i = I. Ce caicui fait appel a un estimateur a 
long terme de 1'enveloppe du bruit £>a-, a un estimateur 

:r : ;err.e bi • et a un comp:eur de trames bruitees b ± . 

A l'etape 25, la grandeur AE n ^ est cornparee a un 
seuil el. Si le seuil el n'est pas atteint, le compteur 

est increments d'une unite a l'etape 26. A l'etape 27, 
1' estimateur a long terme ba^ est compare a la valeur de 

l'energie lissee E n ,i • si ba i~ E n,i' l'estimateur ba^ est 

oris egal a la valeur lissee En,i ^ l'etape 28, et ie 

compteur b i est remis a zero. La grandeur p^, qui est 

prise egale au rapport ba^/E n ^ (etape 36), est alors 
egale a 1 . 

Si l'etape 27 montre que ba i <E R/ j L , le compteur b i 

est compare a une valeur limite bmax a l'etape 29. Si 
b->bmax, ie signal est considere comme trop stationnaire 

pour supporter de I'activite vocale. L'etape 28 precitee, 
qui revient a considerer que la trame ne comporte que du 
bruit, est alors executee. Si b^<bmax a l'etape 29, 

i'estimateur interne bi^ est calcule a l'etape 33 selon : 

b±± = (l-3m) . E nf ± + 3m . ba^ ( 4 ) 

Dans cette formule, Bm represente un coefficient de mise a 
jour compris entre 0,90 et 1. Sa valeur differe selon 
i'etat d'ur, automate de detection d' activite vocale 
(etapes 30 a 32). Cet etat S ^ est celui determine lors 

du traitement de la trame precedente. Si 1' automate est 
dans un etat de detection de parole (6 n _ 1 =2 a l'etape 30), 
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ie coefficient 3m or end une valeur Bmp ::es p roc he -de 1 
pour cue i'eszir.ateur ciu bruit so:: tres faiblement r.is a 
jour en preser.ee de parole. Dar.s le cas con:raire, le 
coefficient 3~ prend une valeur 3ms plus faible, pour 
5 permetzre une mi se a jour plus significative de 
i'esii.-nareur de bruit en phase de silence. A 1 ' etape 34, 
l'ecart ba,-bi- entre i'esii-naieur a long terme et 

1 ' estxmateur interne du bruit est compare a un seuil z2 . 
Si le seuil z2 n'est pas atteint, 1' estimateur a long 
10 terme ba^ est mis a jour avec la valeur de 1 ' est irnateur 

interne bi^ a 1' etape 35. Sinon, l'estimateur a long terme 

oa l reste inchange. On evite ainsi que de brutaies 

variations dues a un signal de parole conduisent a une 
mise a jour de l'estimateur de bruit. 
15 Apres avoir obtenu les grandeurs p^, le module 15 

procede aux decisions d'activite vocale a 1' etape 3"7. Le 
module 15 met d' abord a jour l'etat de 1' automate de 
detection selon la grandeur p Q calculee pour 1' ensemble de 

la bande du signal. Le nouvel etat 5 n de 1' automate depend 

20 de l'etat precedent $ n _i et de Pq' de la maniere 

representee sur la figure 4 . 

Quatre etats sont possibles : 6=0 detecte le 

silence, ou absence de parole ; 5*=2 detecte la presence 

d' une activite vocale ; et les etats 5=1 et 5=3 sont des 
25 etats intermediates de montee et de descente. Lorsque 

i'autorr.ate est dans l'etat de silence (6 n _ 1 = 0 ) , il y reste 

si p 0 ne depasse pas un premier seuil SE1, et il passe 

dans l'etat de r.ontee dans le cas contraire. Dans l'etat 
de montee (S_. .1=1), il revient dans l'etat de silence si 
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Pq est plus pe t i t que le seuil S-l, il passe cans l'etat 
cie parole si pQ est. plus c rand qu'un second seuil SE2 plus 

grand cue le seuil SE1, e: il res;e dans i'etai de montee 
si SE1< p 0 <SE2. Lorsque 1' automate est dans l'etat de 

parole (6 n _. =2 ) , il y reste si p Q depasse un rroisieme 

seurl SE3 plus petit que le seuil SE2, et il passe cans 
l'etat de descente dans le cas contraire. Dans l'etat de 
descente (8^ i=3), 1' automate revient dans l'etat de 

parole si p Q est plus grand que le seuil SE2, il revient 

dans l'etat de silence si p Q est en dega d'ur. quatrieme 

seuil SE4 plus petit que le seuil SE2 , et il res te dans 
l'etat de descente si SE4<p Q <SE2. 

A 1'etape 37, le module 15 calcule egalement les 

degres d'activite vocale y^ ; dans chaque bande i>l. Ce 

n , — 

degre y n ^ est de preference un parametre non binaire, 

c'est-a-dire que la fonction y .=g(p.) est une fonction 

* 1 , J. J. 

variant continument entre 0 et 1 en fonction des valeurs 
prises par la grandeur . Cette fonction a par exemple 

1' allure representee sur la figure 5. 

Le module 16 calcule les estimations du bruit par 
bande, qui seront utilisees dans le processus de 
debruitage, en utilisant les valeurs successives des 
composantes S . et des degres d'activite vocale y_ , . 

Ceci correspond aux etapes 40 a 42 de la figure 3. A 
1'etape 40, on determine s; 1' automate de detection 
d'activite vocale vient de passer de l'etat de montee a 
l'etat de parole. Dans 1 ' affirmative, les deux dernieres 

estimations &n-\ t i et ^n-2,i precedemment calculees pour 
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chaque bar.de i > i sont corrigees cor.f ormenent a la valeur 
de 1' estimation precedence &n-3,i - Cette correction est 
effectuee pour tenir compte du fait que, dans la phase de 
mon:ee (6=1), les estimations a icr.g terme de I ' enercie du 
bruit dar.s le processus de detection d' activite vccaie 
(etapes 30 a 33) ont pu etre calcuiees comme si le signal 
r.e comportait que cu bruit (3m=3ms), de sorte qu' el les 
risquent d'etre entachees d'erreur . 

A l'etape 42, le module 16 met a jour les 
estimations du bruit par bande seion les formules : 

*n,i = ?n,i- Aq-1,2 + ' < 6 > 

ou X B designe un facteur d'oubli tel que 0<X B <1.. La 
formule (6) met en evidence la prise en compte du degre 
d' activite vocale non binaire y n s - 

Comme indique precedemment , les estimations a long 
terme du bruit B_ font 1'objet d'une surestimat ion, par 

un module 45 (figure 1), avant de proceder au debruitage 
par soustraction spectrale non lineaire. Le module 45 

calcule le coefficient de surest imation <* n ^ precedemment 

evoque, ainsi qu' une estimation majoree &n,i c * u ^ 

correspond essent iellement a a n ^.3 n ^. 

L' organisation du module de surestimat ion 45 est 
representee sur la figure 6. L' estimation majoree B n est 

obtenue en combinant 1' estimation a long terme 3^ et ur.e 
mesure ABl? a 7 * de la variability de la composante du bruit 
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dans la bande i autour de son estimation a long terme. 
Dans 1' example consider*, cette combinaison est, pour 
1'essentiel, une. simple somme realises par un additionneur 
46. Ce pourrait egalement etre une somme ponderee. 

Le coefficient de surest imat ion a„ est egai au 

.I, — 

raooort entre la somme B n + delivree par 

I ' additionneur 46 et 1' estimation a long terme retardee 
B n _ x 2 i (diviseur 47), plafonne a une valeur limite <x max /> 

par exemple ot max =4 (bloc 48) . Le retard t3 sert a corriger 

ie cas echeant, dans les phases de montee (5=1), la valeur 

du coefficient de surest imat ion a _ ■ , avant que les 

estimations a long terme aient ete corrigees par les 
etapes 40 et 41 de la figure 3 (par exemple x3=3) . 

L' estimation majoree B n ± est finalement prise 
egaie a CL n ±. ^n_ T 3 / i (multiplieur 49). 

La me sure A£;? a * de la variability du bruit reflete 
la variance de l'estimateur de bruit. Elle est obtenue en 
fonction des valeurs de S n ^ et de B n ^ calculees pour un 

certain nombre de trames precedentes sur lesquelles le 
signal de parole ne presente pas d' activite vocale dans la 



bande i. C'est une fonction des ecarts 



s n-k,i " B n-k,i 



calcuies pour un nombre X de trames de silence (n-k<n). 
Dans 1' exemple represents, cette fonction est simplement 
le maximum (bloc 50). Pour chaque trame n, le degre 

d' activite vocale v_ . est compare a un seuil (bloc 51) 

n , x 



2768547 



oour decider si l'ecarc S n ^ - 3 n ^j , calcule en 52-53, co;: 

ou non ecre charge dans une file d'aitente 54 de K 
emplacements organisee en mode premier en: re-premier sor:i 
(FIFO). Si v ■ ne cepasse pas le seuil (qui peut et re 

5 egal a 0 si la fonction g() a la forme de la figure 5), la 
FIFO 54 n' est pas alirr.entee, t and is qu'elle l'est dans le 
cas contraire. La valeur maximale contenue dans la FIFO 54 

est aiors fournie comme mesure de variabilite AB™* 2 * . 

La mesure de variabilite AB*" peut, en variance, 
10 et re obtenue en fonction des valeur s S_ £ (et non S • } et 
3 . On procede aiors de la meme maniere, sauf que la 



FIFO 54 contient non pas 



s n-k,i ~ B n-k,i 



pour chacune des 



bandes i, mais plutot max 

f €[5(i-l) ,fU)[ 



s n-k,f " B n-*k,i 



Grace aux estimations independantes des 
15 fluctuations a long terme du bruit B n,i et de sa 

variabilite a court terme AB^ X , l'estimateur ma j ore B n ^ 

procure une excellente robustesse aux bruits musicaux du 
procede de debruitage . 

Une premiere phase de la soustraction spectrale 
20 est realisee par le module 55 represents sur la figure 1. 

Cette phase fournit, avec la resolution des bandes i 

(l<i<I), la reponse en frequence H*^ d'un premier filtre 



de debruitage, en fonction des composantes S n ^ 



des coefficients de surest imat ion ot n ^ . Ce calcul peut 
25 etre effectue pour chaque bande i selon la formule : 
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-'/-»- J- _ ^ . _ 

ou xA est un retard en:ier determine tel que t4>0 (par 

exemple t4=0). Dans 1' expression % 7), le coefficient 

representee comme le coefficient fip- de la formule (3), un 

plancher servant classiquerr.ent a eviter les valeurs 
negatives ou trop faibies du signal debruite. ■ 

De fagon connue (EP-A-0 534 837) , le coefficient 
i 

de surestimat ion a n pourrait etre remplace dans la 
forrr.ule (7) par un autre coefficient egal a une fonction 
de a' • et d' une estimation du rapport signal-sur-bruit 
(par exemple S n ^/ B n ^) e cette fonction etant decroissante 
selon la valeur estimee du rapport signal-sur-bruit. Cette 
fonction est alors egale a <x n ^ pour les valeurs les plus 

faibies du rapport signal-sur-bruit. En effet, lorsque le 
signal est ties bruite, ii r.'est a priori pas utile de 
diminuer le facteur de surest inat ion . Avantageusement, 
cette fonction decroit vers zero pour les valeurs les plus 
elevees du rapport signal/bruit. Ceci permet de proteger 
les zones les plus energetiques du spectre, ou le signal 
de parole est le plus signif icatif , la quantite soustraite 
du signal tendant alors vers zero. 

Cette strategie peut etre affinee en l'appliquant 
de maniere selective aux harmoniques de la frequence 
tonale (« pitch ») du signal de parole lorsque celui-ci 
presente une activite vocaie. 

Ainsi, dans la realisation representee sur la 
figure 1, une seconde phase de debruitage est realisee par 
un module 56 de protection des harmoniques. Ce module 
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za leuie , avec la resolution de la t:ans::rmee de Fourier, 
la reponse en frequence - d'un second flit re de 

debruitage er. fonction des parametres i / a n,i ' 5 n,i ' 

6^, S n i e: de la frequence tor.ale f p ==r e /T p calcul ^ e en 
dehors des phases de silence par un module d' analyse 
harmonique 57. En phase de silence <S n =0), le module 56 

r.' est pas en service, c'est-a-dire que #\,f = H n,i P our 

chaque frequence f d'une bande i. Le module 57 peut 
appliquer toute methode connue d' analyse du signal de 
parole de la trarte pour determiner la periode T , exprimee 

co.Tjne un norrire emier ou f rac: ionnaire d' echant illons , 
par exemple une methode de prediction lineaire. 

La protection apportee par le module 56 peut 
consister a effectuer, pour chaque frequence f appartenant 
a une bande i : 



H l,f = 1 si 



et 3x\ enrier / }/ - r\. 1 



< Af / 2 (9) 



H l,f = H n,f sinon 



Af=F e /N represente la resolution spectrale de la 

2 

transformee de Fourier. Lorsque H n,f^' ^ a quantite 
soustraite de la composante S n ^ sera nulle. Dans ce 

calcul, les coefficients de plancher (5^ (par exemple 

= ) expriment le fait que certaines harmoniques de la 
frequence tonale f peuvent etre masquees par du bruit, de 

sorte qu' il r/est pas utile de les proteger. 

Cette strategie de protection est de preference 
appliquee pour chacune des frequences les plus proches des 
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harmoniques ^ f Q/ c'es;-a-dire pour rj er.tier queiconque. 

Si cr. designe par 5f Q la resolution frequent ieile 

avec laqueile le module d' analyse 57 produit la frequence 
tonale esrir.ee f , c'est-a-dire que la frequence ronale 

reelle est comprise entre f 0 -6f 0 /2 e: f p~ 5f p/ 2 ' alors 

i'ecart er.tre la rj-ieme haraonique de la frequence tor.ale 
reelle est son estimation *nxf D (condition (9)) peut aller 

jusqu'a ±r|x6f p /2. Pour les vaieurs elevees de r\, cet ecart 

peut etre superieur a la derni-resolution spectrale Af/2 de 
la transforrr.ee de Fourier. Pour tenir compte de cette 
incertitude et garantir la bonne projection des 
harmoniques de la frequence tonale reelle, on peut 
croteger chacune des frequences de 1' intervalle 

T]xfp- Tix8fp/2 , Tixr p + Tix8fp/2j , c'est-a-dire remplacer la 

condition (9) ci-dessus par : 

3t| entier / f - i\. f p | < (ti. bf p + Af)/2 (9' ) 

Cette fagon de proceder (condition (9')) presente un 
interet particulier lorsque les vaieurs de t] peuvent etre 
grandes, notamment dans le cas ou le procede est utilise 
dans un systeme a bande elargie. 

Pour chaque frequence protegee, la reponse en 

frequence corrigee ^n f f P eut etre egale a 1 comme indique 

ci-dessus, ce qui correspond a la soustraction d' une 
quantite nulie dans le cadre de la soustraction spectrale, 
c'est-a-dire a une protection complete de la frequence en 
question. Plus generalement , cette reponse en frequence 

corrigee H n,~ pourrait etre prise egale a une valeur 
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cot.? rise enure 1 et Hz, seion le degre de protection 

souhaite, ce qui correspond a la sousiractior. d'une 
cuanri-e inferieure a celle qui serait soustraite si la 
frequence en question n'etait pas protegee. 

Les composantes spectraies s n,£ d ' un signal 

debruite sont calculees par un multiplieur 58 : 

s n f = H n S n f (i0) 
Ce signal ^ est fourni a un module £0 qui 

calcule, pour chaque trame n, une courbe de masquage en 
appliquant un modele psychoacous t ique de perception 
auditive par 1'oreille humaine. 

Le phenomene de masquage est un principe connu du 
f onctionnement de 1'oreille humaine. Lorsque deux 
frequences sont entendues simultanement , il est possible 
que l'une des deux ne soit plus audible. On dit alors 
qu'elle est masquee. 

II existe differentes methodes pour calculer des 
courbes de masquage. On peut par exemple utiliser celie 
developpee par J.D. Johnston {«Transform Coding of Audio 
Signals Using Perceptual Noise Criteria », IEEE Journal on 
Selected Area in Communications, Vol. 6, No. 2, 
fevrier 1988) . Dans cette methode, on travaille dans 
l'echelle f requentielle des barks. La courbe de masquage 
est vue comme la convolution de la fonction d'etaiement 
spectral de la membrane basilaire dans le domaine bark 
avec le signal excitateur, constitue dans la presente 

application par le signal $%,f • La fonction d'etaiement 

spectral peut etre modelisee de la maniere representee sur 
la figure 7. Pour chaque bande de bark, on calcule la 
contribution des bandes inferieures et superieures 
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cor.voluees par la fonction d'etaiement de la membrane 
basilaire : 

ou les indices q et q' designer.!: ies bandes de bark 
(0<q,q'<Q), et S 2 n c * represente la moyenne des composantes 

5 2 n f du signal excitateur debruite pour les frequences 

discretes f appartenant a la bande de bark q' . 

Le seuil de masquage M_ est obtenu par le module 

n f q 

50 pour chaque bande de bark a, selon la fonule : 

M n,q = C n,q /R q < 12 > 

oil R depend du caractere plus ou moins voise du signal. 

De fagon connue, une forme possible de est : 

10.1og 1Q (R ) = (A+q) .x + B.{l-x> (13) 

avec A=14,5 et B=5,5. x designe un degre de voisement du 
signal de parole,, variant entre zero (pas de voisement) et 
1 (signal fortemem voise). Le paraneire x peut etre de la 
forme connue : 

f SFM 1 

oil SFM represente, en decibels, le rapport entre la 
moyenne arithmetique et la moyenne geometrique de 
l'energie des bandes de bark, et SFM__ v --60 dB. 

Ilia J\ 

Le systeme de debruitage comporte encore un module 

62 qui corrige la reponse en frequence du filtre de 

debruitage, en fonction de la courbe de nasquage M _ 

n, q 

calculee par le module 60 et des estimations majorees B n ± 
calculees par le module 45. Le module 62 decide du niveau 
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cie cecr-itage qui coil reel lemer.t en re attemc . 

Zr. conparant I ' envelopes cie I ' es: imat ior, ma - oree 

du bruit avec I'enveloppe formee par les seuils de 

r.ascuace or. decide de ne debruiter le signal que 

— f q 

fc i 

dans la mesure ou 1' estimation majoree 3 n ^ depasse la 

courbe de masquage. Ceci evi-te de suppnmer inut ilemer.t du 
bruit masque par de la parole. 

La nouvelle reponse H n,£ ' P our une frequer.ee f 

apparter.ant a la bands i definie par le module 12 et a la 
bande de bark q, depend ainsi de l'ecart relatif entre 

w est : -at ion maioree 3_ ■ de la composante soectraie 

ccr respondante du bruit et la courbe de masquage ^ n ^q' 

la maniere suivante : 



H n,f = 1 " (l " <f ) • 



max 



& n,i ~ M n,q 



(14) 



En d'autres termes, la quantite soustraite c'une 

comoosante soectraie * , dans le processus de 

* * / i 

soustraction spectrale ayant la' reponse frequent ielle 

r , est sensiblement egale au minimum entre d'une part 

la quantite soustraite de cette composante spectrale dans 
le processus de soustraction spectrale ayant la reponse 

f requentielle H n,f * et d' autre part la fraction de 

1' estimation majoree B n f i cie ia composante spectrale 
correspondante du bruit qui, le cas echeant, depasse la 
courbe de masquage M n/ q- 

La figure 8 i 1 lust re le principe de la correction 
applicuee par le module 62. Elle montre schemat iquement un 
exemple de courbe de masquage M n ^ calculee sur la base 
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des comoosar.-.es soec.rales 51 ? du sicr.;. ceoruite, a:r.= : 

aue 1 ' estimation majoree 3^ • ciu spec:re du bruit. la 
quant it e f ir.alement soustraite cies coTposantes S n ^ f sera 



ceiie reDrese 



ervcee oar les tones hachurees, c'est-a-dire 



limitee a la fraction de i f estimation majoree B n ^ 



ce s 



conposantes spectrales du bruit qui depasse la courbe de 
masquage . 

Cette soustraction est effectuee en multipliant la 
reponse frequent ielle H^ /f du filtre de debruitage par 
les compcsantes spectrales S n ^ f du signal de parole 

(multiplieur 64). Un module 65 reconstruct alors le signal 
debruite dans le domaine temporel, en operant la 
transformee de Fourier rapide inverse (TFRI) inverse des 

echantillons de frequence s\ f delivres par le multiplieur 

64. Pour chaque trame, seuls les N/2=128 premiers 
echantillons du signal produit par le module 65 sont 

delivres comme signal debruite final s 3 , apres 
reconstruction par addition-recouvrement avec les N/2=128 
derniers echantillons de la trame precedente (module 66) . 

La figure 9 montre une forme de realisation 
preferee d'un systeme de debruitage mettant en ceuvre 
1' invention. Ce systeme comporte un certain nombre 
d' elements semblables a des elements correspondant s du 
systeme de la figure 1, pour lesquels on a utilise les 
memes references numeriques. Ainsi, les modules 10, 11, 
12, 15, 16, 45 et 55 fournissent notamnent les quantites 

S n , , 3_ v , a\ , , B i ez H' n f pcur ef f ectuer le 

debruitage select if . 

La resolution en frequence de la transformee de 
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Fourier rapide 11 est une 1 imi ta t ior. cu systeme de la 
fiq-jre 1. En effet, la frequence faisa.nt. I'objet de la 
proiec.ior. par le module iz> n'est pas r.ecessairement la 
frequence -onale precise :" D , mais la frequence la plus 

proche de ceile-ci dans ie spectre discret, Dans certains 
cas, on peut aiors proteger des harmoniques relat i vemen: 
eloignees de celle de la frequence tonale. Le systeme de 
la figure 9 pallie cet inconvenient grace a un 
conditionnement approprie du signal de parole. 

Dans ce condit ionnement , on modifie la frequence 
d' echant illonnage du signal de telle sorte que la periode 
l/f D couvre exactemer.t un nonbre entier de temps 

d' echant i lion du signal conditionne. 

De nombreuses methodes d' analyse harmonique 
pouvant etre mises en oeuvre par le module 51 sont capables 
de fournir une valeur f ract ionnaire du retard T , exprime 

en n ombre d' echantillons a la frequence d' echantillonnage 
initiaie F e . On choisit alors une nouvelle frequence 

d' echant i 1 lonnage f de telle sorte qu'elle soit egale a 

un multiple entier de la frequence tonale estimee, soit 
f e =p. f p=p . F e /T p =K. F e , avec p entier. Afin de ne pas perdre 

d' echant illons de signal, il convient que f soit 

superieure a F . On peut notamment imposer qu'elle soit 

comprise entre F e et 2F e (1<K<2) , pour faciliter la mise 

en oeuvre du condit ionnement . 

Bien entendu, si aucune activite vocale n'est 

detectee sur la trame courante (S_*=0) , ou si le retard T_ 

estime par le module 5" est entier, il n'est pas 
necessaire de conditionner le signal. 

Afin que chacune des harmoniques de la frequence 

tonale corresponde egalement a un nombre entier 
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d' echant illor.s du signal condi t ionr.e, i'entier p doit etre 
ur. diviseur de taille N de la :er.e:re de signal 

produ::e par ie -sduie 10 : N=ap, avec a entier. Cette 
taille N es: usuellement ur.e puissance de 2 pour la mise 
en ceuvre de la 7FR. Elle esc de 256 dans i'exempie 
considere . 

La resolution spectrale Af de la transformee de 
Fourier discrete du signal conditionne est donnee par 
Af =p . f /N-f p/a. On a done interet a choisir p petit de 

fagon a maximiser a, mais suf f isamment grand pour 
surechantillonner , Dans l'exemple considere, ou F e =8 kHz 

et N=256, ies vaieurs choisies pour les parametres p et a 
sont indiquees dans le tableau I - 



500 Hz < f < 10C0 Hz 


8 < T p < 16 


p = 16 


a = 16 


250 Hz < .f < 500 Hz 


16 < T p < 32 


p = 32 


a = 8 


125 Hz < f p < 250 Hz 


32 < T p < 64 


p = 64 


a = 4 


! 62, 5 Hz < f < 125 Hz 

i *^ 
t 


64 < T p < 128 


p = 128 


a = 2 


| 31,25 Hz < f p < 62,5 Hz 


128 < T < 256 


p = 256 


a = 1 



Tableau I 

Ce choix est effectue par un module 70 selon la 
valeur du retard Tp fournie par le module d' analyse 

harmonique 57. Le module 70 fournit le rapport K entre les 
frequences d' echantillonnage a trois modules de changement 
de frequence 71, 72, 73. 

Le module 7 1 sert a transformer les vaieurs S n - , 

£T • , a' • , 3* • et H' f , relatives aux bandes i definies 

par le module 12, dans 1'echelle des frequences modifiees 
(frequence d' echantillonnage f ) . Cette transformation 
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cons i s re s implement: o dilater les bande s i dans le 
facteur K. Les valeurs air.si t ransf ormees sont rournies au 
module 56 de protection des harmor.iques . 

Ceiui-ci cpere alors de la meme maniere que 

or ececemmen t pour rournir la reponse en frequence ^^,f du 

f iltre de debruitage. Cette reponse H n,£ est obtenue de 

la meme maniere que dans le cas de la figure 1 (conditions 
(3) et (9)), a cette difference pres que f dans la 
condition (9), la frequence tonale f =f e /p €St d ^ finie 
selon la valeur du retard entier p fourni par le module 
70, la resolution en frequence Af etant egalement fournie 
par ce module "7 0. 

Le module 72 procede au surechantillonnage de la 
trame de N echantillons fournie par le module de fenetrage 
10. Le surechantillonnage dans un facteur K rationnel 
(K-K1/K2) consiste a effectuer d'abord un 

surechantillonnage dans le facteur entier Kl, puis un 
sous-echantillonnage dans le facteur entier K2 . Ces 
surechantillonnage et sous-echantillonnage dans des 
facteurs entiers peuvent etre effectues classiquement au 
moyen de bancs de filtres polyphase. 

La trame de signal conditionne s' fournie par le 
module 72 comporte KN echantillons a la frequence f e - Ces 

echantillons sont adresses a un module 75 qui calcule leur 
t ransf ormee de Fourier. La transformation peut etre 
effectuee a partir de deux blocs de N=256 echantillons : 
i'un constitue par les N premiers echantillons de la trame 
de longueur KN du signal conditionne s' , et 1' autre par 
les N derr.iers echantillons de cette trame. Les deux blocs 
presentent done un recouvrement de (2-K)xi00%. Pour chacun 
des deux blocs, on obtient un jeu de composantes de 
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r ourie- S Ces comoosar.tes ~ son: fournies au 

nul-iplieur 58, qui les mult i pile par la reponse specrrale 
£ pour delivrer les composar.tes spectrales s n,f ciu 
premier signal debruite. 

Ces composantes Si, f sont adressees au module 60 

qui calcule les courbes de nasquage de la maniere 
precedemment indiquee . 

De preference, dans ce calcul des courbes de 
masquage, la grandeur x designan: le degre de voisement du 
signal de parole (formule (13)) est prise de la forme 
y=l-K, ou H est une entropie de 1' autocorrelation des 

composantes spectrales f du signal conditionne 

debruite- Les autocorrelations A(k) sont caiculees par un 
module 76, par exemple selon la formule : 

N/2-1 
Z s J,f • s n,f+k 

A <« = N/2-1 1/2-1 ^ (15) 

Z Z s r.,f- s n,f+f ' 
f=0 f'=0 

Un module 77 calcule ensuite 1' entropie normalisee 
H, et la fournit au module 60 pour le calcul de la courbe 
de masquage (voir S.A. McClellan et al : « Spectral 
Entropy : an Alternative Indicator for Rate 
Allocation ? », Proc. ICASSP'94, pages 201-204) : 

N/2-1 

A{k) . iog[A(/r)] 

H. "°, v/2 , (16) 

-oc \/2) 

Grace au conditionner?.enz du signal, ainsi qu' a son 
debruitage par le filtre H^ f , 1' entropie normalisee H 
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ccnstitue une me su re de voise.ier.: tres robus: e an bruit et 
aux variations de la frequence ^onale. 

Le module de correction 62 opere de la meme 
.T.aniere que celui du systeme de la figure 1, en tenant 

compte du bruit surestime 3^ remis a 1'echelie par i€ 

module de changement de frequence 71. II fournit la 

reponse en frequence H a,f du filtre de debruitage 

definitif, qui est multiplies par les composantes 
soectrales * du signal conditionne par le multipiieur 

64. Les composantes s ^\f 3 ui en resultent sont ramenees 

aans le domaine temporal par le module de TFRI 55. En 
sortie de cette TFRI 65, un module 80 combine/ pour chaque 
trame, les deux blocs de signal issus du traitement des 
deux blocs recouvrants delivres par la TFR 75. Cette 
combinaison peut consister en une somme avec ponderation 
de Hamming des echantillons, pour former une trame de 
signal conditionne debruite de KN echantillons. 

Le signal conditionne debruite fourni par le 
module 80 fait l'objet d'un changement de frequence 
d' echantillonnage par le module 73. Sa frequence 
d' echantillonnage est ramenee a F e =f e /K par les operations 

inverses de celles effectuees par le module 75. Le module 
73 delivre N=256 echantillons par trame. Apres la 
reconstruction par addition-recouvrement avec les N/2=128 
derniers echantillons de la trame precedente, seuls les 
N/2=128 premiers echantillons de la trame courante sont 
finaiement conserves pour former le signal debruite final 

s^ (module 66) . 

Dans une forme de realisation preferee, un module 

82 gere les fenetres formees par le module 10 et 

sauvegardees par le module 66, de fagon telle qu'on 
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sauvegarde un n ombre M d ' echant il Ions egal a un multiple 

e -.-s er d e T =F /f . Or. ev::e ainsi les croble-es de 
A p *■ e p 

discont inuite de phase en:re les names . De fa^on 
correspor.danze, le module de gestion 82 commande le module 
de feneirage 10 pour que le recouvrement en-re la :rame 
courante et la prochaine corresponde a N-M. II sera lenu 
de ce recouvrement de N-M echant i 1 Ions dans la some a 
recouvrement effectuee par le module 66 lors du traitement 
de la prochaine trame. A partir de ia valeur de T p fournie 

par le module d' analyse harmonique 5*7/ le module 82 
calcule le nombre d' echantillons a sauvegarder 

M=T xE[N/(2T_)], E[] designant la partie entiere, et 
P P 

commande de fagon correspondante les modules 10 et 56. 

Dans le mode de realisation qu'on vient de 
decrire, la frequence tonale est estimee de fagon moyenne 
sur la trame. Or la frequence tonale peut varier quelque 
peu sur cette duree. II est possible de tenir compte de 
ces variations dans le cadre de la presente invention, en 
conditionnant le signal de facpon a obtenir 
artif iciellement une frequence tonale constante dans ia 
trame . 

Pour cela, on a besoin que le module 57 d' analyse 
harmonique fournisse les intervalles de temps entre les 
ruptures consecutives du signal de parole attribuables a 
des fermetures de la glotte du locuteur intervenant 
pendant la duree de la trame. Des methodes utilisables 
pour detecter de telles micro-ruptures sont bien connues 
dans le domaine de 1' analyse harmonique des signaux de 
paroles. On pourra a cet egard consulter les articles 
suivants : M. 3ASSEVILLE et al., « Sequential detection of 
abrupt changes in spectral characteristics of digital 
signals », IEEE Trans, on Information Theory, 1983, Vol. 
IT-29, n°5, -pages 708-723. ; R. ANDRE-OBRECHT, « A new 
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statistical approach for the automatic segmentation of 
continuous speech signals », IEEE Trans, on Acous., Speech 
and Sig. Proc, Vol. 36, N°I, janvier 1988 ; et C. M-"?.GIA 
et al., « An algorithm for the estimation of glottal 
closure instants using the sequential detection of abrupt 
changes in speech signals », Signal Processing VII, 1994, 
pages 1685-1688. 

Le principe de ces methodes est d'effectuer un 
test statistique entre deux modeies, l'un a court terme et 
1' autre a long terme. Les deux modeies sont des modeies 
adaptatifs de prediction lineaire. La valeur de ce test 
statistique est la somme cumulee du rapport de 

vraisemblance a posteriori de deux distributions, corrigee 
par la divergence de Kullback. Pour une distribution de 
residus ayant une statistique gaussienne, cette valeur w 

m 

est donnee par : 



1 + 



til 
-I 



1 - 



(17) 



0^2 

ou e m et a 0 representent le residu calcule au moment de 
1' echantillon m de la trame et la variance du modele a 

1 2 

long terme, et a x representant de meme le residu et la 

variance du modele a court terme. Plus les deux modeies 
sont proches, plus la valeur w m du test statistique est 
proche de 0, Par contre, lorsque les deux modeies sont 
eloignes ■ l'un de 1' autre, cette valeur w m devient 
negative, ce qui denote une rupture R du signal. 

La figure 10 montre ainsi un exemple possible 
d' evolution de la valeur w m , montrant les ruptures R du 

signal de parole. Les intervalles de temps t 
< r = 1/2,...) entre deux ruptures consecutives R sont 
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calcules, et exprimes en n ombre d' ec'r.ant 11 Ions du signal 
ce parole. Chacun ae ces mtervalies t r est inverssment 

proportionnel a la frequence tonale f Q , qui est ainsi 

estimee locaierner.t : f =F-Vt _ sur le r-ieme interval le . 
" *" p ~ — 

On peut alors corriger les variations temporeiies 
ce la frequence tor.ale (C est-a-dire le fait cue les 
intervalles t ne sont pas tous egaux sur une trame 

donnee) , afin d' avoir une frequence, tonale constante dans 
chacune des trames d' analyse. Cette correction est 
effectuee par une modification de la frequence 
d' echantillonnage sur chaque intervalle t r , de fagon a 

ootenir, apres surechant illonnage , des intervalles 
constants entre deux ruptures glottiques. On modifie done 
la duree entre deux ruptures en faisant un 
surechantillonnage dans un rapport variable, de fagon a se 
caler sur 1' intervalle le plus grand- De plus, on fait en 
sorte de respecter la contrainte de conditionnement selon 
laquelle la frequence de surechantillonnage est multiple 
de la frequence tonale estinee. 

La figure II montre les moyens utilises pour 
calculer le conditionnement du signal dans ce dernier cas. 
Le module 57 d' analyse harmonique est realise de fagon a 
mettre en oeuvre la methode d' analyse ci-dessus, et a 
fournir les intervalles t relatifs a la trame de signal 

produite par le module 10. Pour chacun de ces intervalles, 
le module 70 (blcc 90 sur la figure 11) calcule le rapport 
de surechantillonnage K r =p r /t r , ou I'entier p r est donne 

par la troisieme colonne du tableau Z iorsque t r prend les 

valeurs indiquees dans la deuxiene colonne. Ces rapports 
de surechantillonnage K r sont fourr.is aux modules de 

changement de frequence 72 et 73, pour que les 
interpolations soient effectuees avec le rapport 
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d' echar.t illonnage K r sur 1'intervaile de texps 
correspor.carii t _ . 

le olus orand des intervalles de nemos t_ 

p r 

fournis ^ar le rr.oduie 57 pour une trame est seiec: ionne 

par le moc-le 70 (bloc 91 sur la figure 11) pour obtenir 

un couple p,a comme indique dans le tableau I. La 

frequence d' echant illonnage modifiee est alors f e =P-F e /T p 

comnie precedemment , la resolution spectrale Af de la 
transformee de Fourier discrete du signal conditionne 
etant toujours donnee par Af =F e / (a. T ) . Pour le module de 

changeraent . de frequence 71, le rapport de 
surechantillonnage K est donne par K=p/T p (bloc 92) . Le 

module 56 de protection des harmoniques de la frequence 

tonale opere de la meme maniere que precedemment, en 

utilisant pour la condition (9) la resolution spectrale Af 

fournie par le bloc 91 et la frequence tonale 

f =f /p definie selon la valeur du retard entier p fournie 
p e r 

par le bloc 91. 

Cette forme de realisation de 1' invention implique 

egalement une adaptation du module 82 de gestion des 

fenetres. Le nombre M d' echantillons du signal debruite a 

sauvegarder sur la trame courante correspond ici a un 

nombre entier d' intervalles de temps t consecutifs entre 

deux ruptures glottiques (voir figure 10) . Cette 
disposition evite les problemes de discontinuity de phase 
entre trames, tout en tenant compte des variations 
possibles des intervalles de temps t sur une trame. 
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REVEND ICATIONS 

1. Frocede de debruitage d'un signal de parole 
r.umerique <s) traite par -ra.-es successives, dans lequel : 

- on calcule des composantes spectra.es (S n ^ f , 

3 • ) du signal de oarole sur chaque trame ; 
n, i ' ^ 

- on calcule pour chaque trame des estimations 
majorees ( B n ± ) de composantes spectrales du bruit compris 

dans le signal de parole ; 

on effectue une soustraction spectrale 
comportant au moins une premiere etape de soustraction 
dans laquelle on soustrait respect ivement , de chaque 

signal de parole sur la 

dependant de parametres 

( B* ) de la composante 
n, j. 

spectrale correspondante du bruit pour ladite trame, de 

2 

maniere a obtenir des composantes spectrales iS n/ f) d'un 

premier signal debruite ; et 

on applique au resuitat de la soustraction 
spectrale une transformation vers le domaine temporel pour 

construire un signal de parole debruite (s 3 ), 

caracterise en ce que la soustraction spectrale 
comporte en outre les etapes suivantes : 

- le calcul d'une courbe de masquage < M n ,q) en 
appliquant un modele de perception auditive a partir des 
composantes spectrales {S* ff ) du premier signal debruite ; 

- la comparaison des estimations majorees { B n ^ ) 

des composantes spectrales du bruit pour la trame a la 
courbe de masquage caiculee (^ n ,q* '* et 

- une seconde etape de soustraction dans laquelle 
on soustrait respectivement, de chaque composante 



composante spectrale (S n ^ f ) du 
trame, une premiere quantite 
incluant 1' estimation majoree 
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spectrale <S n f ) du signal ce parole sur la name , une 

seccnde quantite dependant de parametres incluant un ecart 
en:re 1' estimation majoree ce la composanie spectrale 
correspor.dante du bruit et la courbe de masquage calculee. 

2. Procede selon la revendicat ion 1, dans lequel 
ladite seconde quantite relative a une composante 
spectrale (S n f ) du signal de parole sur la trame est 

sensiblement egale au minimum entre la premiere quantite 
correspondante et la fraction de 1' estimation majoree 

( b' • ) de la composante spectrale correspondante du bruit 

qui depasse la courbe de masquage ( M n/ q)- 

3. Procede selon la revendicat ion 1 ou 2, dans 
lequel on effectue une analyse harmonique du signal de 
parole pour estimer une frequence tonale (fp) du signal de 

parole sur chaque trame ou il presente une activite 
vocale . 

4. Procede selon la revendicat ion 3, dans lequel 
les parametres dont dependent les premieres quantites 
soustraites incluent la frequence tonale estimee < f p)- 

5. Procede selon la revendicat ion 4, dans lequel 

la premiere quantite soustraite d'une composante spectrale 

donnee (S n f ) du signal de parole est plus faible si 
n / i 

ladite composante spectrale correspond a la frequence la 
plus proche d' un multiple entier de la frequence tonale 
estimee (f p ) que si ladite composante spectrale ne 

correspond pas a la frequence la plus proche d' un multiple 
entier de la frequence tonale estimee. 

6. Procede selon la revendication 4 ou 5, dans 
lequel les quantites respect ivement soustraites des 
comoosantes SDectrales (S_ ^ ) du signal de parole 

correspondent aux frequences les plus proches des 
multiples entiers de la frequence tonale estimee ( f p) sont 

sensiblement nulles. 
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7. Procede selon I' une quelconque des 
revendications 3 a 6, dans lequel, acres avoir estime la 
frequence tor.ale (f Q ) du signal ce parole sur une trame, 

on conditionne le signal de parole de la trame en le 
surechantiilor.nant a une frequence de surechantillonnage 
(f ) multiple de la frequence tonale estimee, et on 

calcule les composantes spectrales . (S n f ) du signal de 

parole sur la trame sur la base du signal conditionne (s') 
pour leur soustr.aire lesdites quanrites. 

8. Procede selon la revendicat ion 7, dans lequel 
on calcule des composantes spectrales (S n du signal de 

parole en distribuant le signal conditionne (s' > par blocs 
de N echantilions soumis a une transformation dans le 
domaine frequentiel, et dans lequel le rapport (p) entre 
la frequence de surechant illonnage (f ) et la frequence 

tonale estimee est un diviseur du nombre N. 

9. Procede selon la revendicat ion 7 ou 8 , dans 

lequel on estime un degre de voisement (%) du signal de 
parole sur la trame a partir d'un calcul de l'entropie (H) 
de 1' autocorrelation des composantes spectrales calculees 
sur la base du signal conditionne. 

10. Procede selon la revendicat ion 9, dans lequel 

2 

lesdites composantes spectrales < s n,f* dont on calcule 

1' autocorrelation (H) sont celles calculees sur la base du 
signal conditionne (s' ) apres soustraction desdites 
premieres quantites . 

11. Procede selon la revendicat ion 9 ou 10, dans 

lequel le degre de voisement (x) est mesure a partir une 

entropie normalisee H de la forme : 

W/2-1 
X Mk) . log[A{«] 
^=0 
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ou N est le r. ombre d ' echan - i 1 Ions utilises pour caicuier 
les conposantes spec-rales !S^ : -) sur la base du signal 

cor.dit ior.ne (s'), e; A(k) es: 1 ' autocorrelation normalisee 
definie par : 

A72-1 

£ s n,f ' s n,f+k 
f =0 

A{k) = N/2-1 N/2-1 

X X s n,f * S n,f +f 
f=0 f'=Q 

S 2 jt designant la composante spectrale de rang f calculee 

sur la base du signal conditionne. 

12. Procede selon la revendication 11, dans lequel 
le calcul de la courbe de masquage (M n ^ q ) fait in.ervenir 

l e degre de voisement (x> niesure par l'entropie normalisee 
H. 

13. Procede selon 1'une quelconque des 
revendications 3 a 12, dans lequel, apres le traitement de 
chaque trame, on conserve, parmi les echantillons du 
signal de parole debruite fournis par ce traitement, un 
nombre d' echantillons (M) egal a un multiple entier de 
fois le rapport (T p ) entre la frequence d' echant illonnage 

(F e ) et la frequence tonale estimee (f p ) . 

14. Procede selon l'une quelconque des 
revendications 3 a 12, dans lequel 1' estimation de la 
frequence tonale du signal de parole sur une trame 
comporte les etapes suivantes : 

- on estime des intervalles de temps (t r ) entre 

deux ruptures consecutives (R) du signal attribuables a 
des fermeiures de la glozte du locuteur intervenant 
pendant la duree de la trame, la frequence tonale estimee 
etant inversement proport ionnelle auxdits intervalles de 
temps ; 
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- on interpole le signal de parole dans iesdits 
intervalles de temps, afin que le signal condirionne (s') 
resultant de cette interpolation preserve un intervalle de 
temps constant entre deux ruptures consecut i ves . 

15. Procede selon la revendication 14, dans 
lequei, apres ie traitement de chaque trame, on conserve, 
parmi les echantillons du signal de parole debruite 
fournis par ce traitement, un nombre d' echantillons (M) 
correspondant a un nombre entier d' intervalles de temps 
estimes (t r ) . 

16. Procede selon 1'une quelconque des 
revendications precedentes, dans lequei on estime dans le 
domaine spectral des vaieurs d' un rapport signal-sur-bruit 
que presente ie signal de parole (s) sur chaque trame, et 
dans lequei les parametres dont dependent les premieres 
quantites soustraites incluent les vaieurs estimees du 
rapport signal-sur-bruit, la premiere quantite soustraite 
de chaque composante spectrale ( s n/ f) du signal de parole 
sur la trame etant une fonction decroissante de la valeur 
estimee correspondante du rapport signal-sur-bruit. 

17. Procede selon la revendication 16, dans lequei 
ladite fonction decroit vers zero pour les vaieurs les 
plus elevees du rapport signal-sur-bruit. 
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